期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 专利新词发现的双向聚合度特征提取新方法
陈梅婕, 谢振平, 陈晓琪, 许鹏
计算机应用    2020, 40 (3): 631-637.   DOI: 10.11772/j.issn.1001-9081.2019071193
摘要397)      PDF (772KB)(365)    收藏
针对通用新词发现方法对专利长词识别效果不佳、专利术语词性搭配模板的灵活性不高,以及缺乏对中文专利长词识别的无监督方法的问题,提出了一种发现专利新词的双向聚合度特征提取新方法。首先,以词中组分的双向条件概率统计信息为基础,构造提出了一个二元词上的双向聚合度统计特征;其次,利用此特征扩展提出了词边界筛选规则;最后,基于新特征和词边界规则实现专利新词的提取。实验结果表明,新方法在整体F-测度值方面,与通用领域新词发现方法相比,提高了6.7个百分点,与两种最新的专利词性搭配模板方法相比,分别提高了19.2个百分点和17.2个百分点,并且较为显著地提高了4~8字专利新词发现的F-测度值。综合地,所提出的方法提升了专利新词发现性能,并且能够更有效地提取专利文本中具有复合形式的长词,同时可以减少对预先训练过程和额外复杂规则库的依赖,具备更好的实用性。
参考文献 | 相关文章 | 多维度评价